home *** CD-ROM | disk | FTP | other *** search
/ SGI Developer Toolbox 6.1 / SGI Developer Toolbox 6.1 - Disc 4.iso / src / exampleCode / speech / README < prev   
Encoding:
Text File  |  1994-08-02  |  8.2 KB  |  173 lines

  1.  
  2.                ~4Dgifts/toolbox/src/exampleCode/speech README
  3.  
  4.        new expanding subtree containing software for speech recognition
  5.  
  6.              See also the speech Frequently Asked Questions file 
  7.                  ~4Dgifts/toolbox/FAQs/netfaqs/speech-faq
  8.  
  9.     `!' indicates new or updated as of version 4.2
  10.  
  11.  
  12.         The capabilities of speech recognition are discrete-utterance, 
  13.                   speaker-independent, and small vocabulary.  
  14.    
  15.  
  16.  
  17.     examples:  contains [so far] rudimentary speech example programs:
  18.                * colors.c:   speech demo opens large X window and changes 
  19.                              colors when the color name is spoken, 
  20.                * recognize:  c and c++ versions of the same program that
  21.  
  22.  
  23.  !  inst:      contains beta-level inst images of both the execution end 
  24.                development environments for speech recognition;
  25.  
  26.   
  27.     lackey:    a speech recognition application example, lackey recognizes
  28.                speech through the use of the speech recognition library,
  29.                and uses speech to launch desktop applications;
  30.  
  31.  
  32.     utilities: [so far] contains three binaries--fmbg, gotoWindow, and
  33.            xrset--useful to srpanel.
  34.  
  35.  
  36.  
  37.  
  38.       Read this if you are interested in trying speech recognition
  39.       (skip near the end for a simple but uninformative example):
  40.       
  41.       A version of the speech execution (speech_eoe) and development
  42.       environment (speech_dev) is available in the inst subdirectory.
  43.       Indigo (or later) audio capability and Irix 5 is required.  This 
  44.       software can match discrete utterances from any speaker against a 
  45.       small pretrained vocabulary.  No extra hardware is required (but a 
  46.       better microphone usually helps).  A constant 10% of an R4K is used.
  47.       
  48.       Currently the only application understanding speech is Showcase.
  49.       Other apps may be faked into responding to speech by having the
  50.       speech manager send keystrokes to that app in response to speech.
  51.       Currently this has been done for only MediaMail/Zmail, Zip/Jot,
  52.       and 4Dwm.  Several others are being experimented with including
  53.       CASE, the Icon Catalog, other desktop entities, and Jot's electric
  54.       C mode.  Users may add their own actions and words to applications.
  55.       
  56.       This software is somewhere between alpha and beta stages, needing 
  57.       at least the following major improvements:
  58.       
  59.         * a real character for visual feedback
  60.         * a complete set of trained vocabularies
  61.         * integration with more apps (like the desktop)
  62.         * UI improvements (operations on app word groups)
  63.         * performance improvements
  64.         * bug fixes
  65.         * finished documentation
  66.         * removal of debug output
  67.         * placement in the toolchest or icon catalog
  68.         * a way to deal with audio interference from the computer
  69.       
  70.       After installing speech_eoe, you must reboot before srpanel (the 
  71.       speech manager) can run.  If you do not do this, srpanel will 
  72.       generate the error message "srpanel: could not connect to server". 
  73.       Make sure your microphone is plugged in and placed somewhere away 
  74.       from your noisy computer (do NOT hold the mic as your breath and 
  75.       hands cause alot of noise).  Confirm an increase in apanel's level 
  76.       meter when speaking.  Verify the mic is selected as input at 8KHz 
  77.       and set the gain around 7 (this varies between Indigo's & Indy's).
  78.       See the man pages speech, srpanel, speechbeta, and showspeech 
  79.       (although they are in need of an update).  See the troubleshooting
  80.       section of srpanel's help.
  81.       
  82.       After launching srpanel, verify it is hearing you correctly by 
  83.       speaking "go to sleep" and "wake up" and observing srpanel's change
  84.       in state (when sleeping, srpanel will only recognize "wake up").  
  85.       When srpanel has focus, all trained words are active but no actions 
  86.       are taken.  With focus on Srpanel, verify srpanel recognizes "yes" 
  87.       and "no".  If any of "go to sleep", "wake up", "yes" and "no" are 
  88.       not correctly recognized, train them using srpanel's customization
  89.       window (select the word and click the train button).
  90.       
  91.       Speech-aware showcase is invoked with the command showspeech
  92.       (installed with speech_eoe.sw.misc).  Showcase must already be 
  93.       installed.  The vocabulary for showspeech is modal, so see the 
  94.       vocabulary section of showspeech's man page to understand what 
  95.       showspeech is expecting to hear.  Showspeech is not an approved 
  96.       version of showcase, so don't report any bugs against it to the 
  97.       showcase group.
  98.       
  99.       Other apps such as 4Dwm and MediaMail respond to speech on behalf of
  100.       the speech manager's recognition of a word and subsequent keystroke 
  101.       synthesis (speech-enabled versus speech-aware).  Because only 
  102.       keystrokes are communicated to the speech-enabled application, 
  103.       actions in response to speech are limited.  You may add your own 
  104.       word-actions to srpanel's customization window, or use the "add from
  105.       file" menu item to bring in predefined word-actions for some 
  106.       applications.  Use MediaMail instead of Zmail (unless you use 
  107.       "zmail" to invoke it) - same for Jot/Zip.  See the bindings in the 
  108.       customization window for an understanding of what can be spoken when 
  109.       (the current vocabulary is determined by the class name of the 
  110.       window which has focus).
  111.       
  112.       Srpanel may be instructed to respond to speech in various ways.  
  113.       Some keys have multicharacter or symbolic names and are specified 
  114.       inside chevrons such as <escape>.  Modifiers such as <alt> are 
  115.       released after a subsequent non-modifier.  Key presses and releases 
  116.       may also be controlled.  A delay event <delay> may be needed.  
  117.       Srpanel may respond to speech with actions other than keystrokes, 
  118.       such as button presses <B#> and shell commands <!shell command>.  
  119.       Using the shell command feature, there are ways to further 
  120.       manipulate the desktop such as switching desks, warping the pointer,
  121.       and launching applications.  See binaries in the inst location.
  122.       
  123.       Only some of the words have been pretrained (none of the words for 
  124.       CASE), so more training *is* necessary.
  125.       
  126.       Most the words for 4Dwm's predefined actions have been pretrained, 
  127.       along with a portion for MediaMail/Zmail and Jot/Zip, and only a 
  128.       few for CASE, so further training by the user is currently required 
  129.       to use even the predefined action bindings.
  130.       
  131.       Simple but uninformative example for some 4Dwm functionality:
  132.       
  133.         as root: 
  134.         # inst -f inst/speech_eoe
  135.         verify everything is selected (default) and then do
  136.     inst> go 
  137.     inst> exit
  138.         then reboot, 
  139.     plug in your mic and set it on your monitor,
  140.         login as yourself and run
  141.     % srpanel
  142.         launch apanel from srpanel's menu "Recognizer -> Audio Control Apanel"
  143.         verify apanel's input rate at 8KHz, source from mic, and gain at 7
  144.         select srpanel's menu "Recognizer -> Customization"
  145.         select "Customization's menu File -> Add From File"
  146.         select "4Dwm" from the file browser
  147.         place focus on any window (except any of srpanel's windows)
  148.         say "raise window" or "lower window" and verify appropriate response
  149.         train "yes", "no", "go to sleep", and "wake up"
  150.         train other commands as necessary
  151.         see above for more functionality
  152.       
  153.       An API document (showcase, no dev man pages yet) is part of
  154.       speech_dev.sw.misc and installs in 
  155.       /usr/share/data/speech/misc/recog.api.
  156.       
  157.       Speech synthesis is technically working on our machines, but we have 
  158.       no plans or deals to ship it, so it is not included or used in the 
  159.       current speech images.
  160.       
  161.       Email questions, problems, comments, suggestions to lpw@sgi.com
  162.       
  163.       
  164.       -=+=--=+=--=+=--=+=--=+=--=+=--=+=--=+=--=+=--=+=-
  165.       Lance Welsh              Lance Welsh
  166.       M/S 01L-875              lpw@sgi.com             
  167.       Silicon Graphics, Inc.   wk: (415) 390-1860
  168.       PO Box 7311              hm: (415) 322-7225
  169.       Mountain View, CA  94039-7311
  170.       -=+=--=+=--=+=--=+=--=+=--=+=--=+=--=+=--=+=--=+=-
  171.       
  172.       
  173.